روشی کارا برای کاوش مجموعه اقلام پرتکرار در تحلیل داده های سبد خرید
Authors
abstract
کشف الگوهای پنهان و ارزشمند از درون حجم وسیعی از دادههای خام، اخیراً توجه بسیاری از محققان را به خود جلب کردهاست. اغلب روشهای کاوش قوانین تداعی در مرحله اول کار خود کلیه اقلام پرتکرار (ساده و ترکیبی) را از بین تمام اقلام موجود در دادهها جستجو میکنند که این امر نیازمند به خواندن مکرر کل دادهها از دیسک است. در مسائل دادهکاوی، حجم پایگاه دادههای تراکنش معمولاً آنقدر زیاد است که قابل بار شدن در حافظه اصلی نمیباشند. اما در برخی موارد مانند پایگاه دادههای تحلیلی مربوط به سبدهای خرید یک فروشگاه، با توجه به تعداد نسبتا زیاد اقلام ممکن (کل اجناس فروشگاه) و نیز محدودیت نسبی اندازه تراکنشها (اقلام خریداری شده در هر سبد)، احتمال رخداد یک قلم داده (خریداری شدن یک کالای خاص) پایین است. در این مقاله با بهرهگیری از این ویژگی، روشی کارا برای کاوش اقلام پرتکرار در مجموعه دادههایی از این قبیل ارائه میدهیم. در روش پیشنهادی، دادهها تنها یک بار از دیسک خوانده میشوند و بعد از آن به یک ساختار رمز شده و خلاصه تبدیل میگردند، بطوریکه اولاً قابل نگهداری در حافظه میباشند و ثانیاً با توجه به ساختار خاصی که دارند، عملیات شمارش به سریعترین نحو ممکن انجام میگردد و زمان شمارش دفعات تکرار اقلام در هر مرحله کمتر از مرحله قبل میشود. پس از ارائه الگوریتم، کارایی آن را با استفاده از دو مجموعه از دادههای ساختگی و واقعی ارزیابی کرده و با چند روش کارا که تاکنون ارائه شدهاند، مقایسه میکنیم.
similar resources
روشی کارا برای کاوش مجموعه اقلام پرتکرار در تحلیل دادههای سبد خرید
Discovery of hidden and valuable knowledge from large data warehouses is an important research area and has attracted the attention of many researchers in recent years. Most of Association Rule Mining (ARM) algorithms start by searching for frequent itemsets by scanning the whole database repeatedly and enumerating the occurrences of each candidate itemset. In data mining problems, the size of ...
full textتجزیۀ نامنفی ماتریسی: روشی برای تحلیل داده های نامنفی
اخیراً روش جدیدی با نام تجزیۀ نامنفی ماتریسی برای نمایش خطی داده های نامنفی پیشنهاد شده است که علاوه بر کاهش تعداد داده ها، محدودیت روش های کلاسیک را ندارد. در این روش، ماتریس بزرگِ متناظر با داده های نامنفی به دو ماتریس نامنفی کوچک تجزیه می شود. در این مقاله، ابتدا روش های کلاسیک را مرور می کنیم. سپس تجزیۀ نامنفی ماتریسی با نسخه های مختلف آن معرفی و مسائل مهم داده کاوی مانند رده بندی و خوشه بند...
full textارائه روشی کارا برای تکرار داده ها در گریدهای داده
گرید داده یک محیط توزیع شده است که با کاربردهای داده متمرکز با حجم بالا سروکار دارد. تکرار داده یکی از تکنیک های کلیدی بهینه سازی برای کاهش تأخیر دستیابی و مدیریت داده های حجیم از طریق ذخیره کردن هوشمندانه کپی های داده است. اگر چه تکرار داده از تکنیک های کلیدی است اما مسئله ی انتخاب محل های مناسب برای قرارگیری تکرارها یعنی مکان یابی تکرار در گرید داده هنوز به صورت وسیعی بررسی نشده است. الگوریتم...
15 صفحه اولروشی جدید در تعیین ورشکستگی با استفاده از تحلیل پوششی داده ها و تئوری مجموعه های راف فازی
در شرایط متغیر اقتصادی و نوسانات شدید مالی در محیط های تجاری، وجود الگوهایی برای پیش بینی عملکرد مالی شرکتها از اهمیت بسزایی برخوردار است. یکی از این موارد پیش بینی وقوع بحران مالی و به عبارت دیگر ورشکستگی است. تحلیل پوششی داده ها (DEA) یک ابزار قدرتمند در اختیار مدیران است که عملکرد شرکت خود را در فعالیت های تجاری محک بزنند. مدلهای مرسوم تحلیل پوششی داده ها ارزیابی کارایی نسبی واحدهای تصمیم گی...
full textبهبود عملکرد واحدهای تصمیمگیرنده کارا با استفاده از روش تقاطع ابرصفحههای سازای مجموعه امکان تولید در تحلیل پوششی داده ها
تحلیل پوششی داده ها (DEA) یک تخمینگر است. این تخمینگر سعی می کند که یک ارتباط بین ورودی های متعدد و خروجی های متعدد و همچنین تکنولوژی تولید را تخمین بزند. DEA واحدهای تصمیم گیرنده (DMU) را به دو بخش واحدهای کارا و واحدهای ناکارا تقسیم بندی میکند. در این صورت واحدهای کارا مرجعی برای واحدهای ناکارا خواهد بود. در مدلهای سنتیDEA بهبود کارایی تنها برای واحدهای ناکارا صورت می گیرد و واحدهای کارا ...
full textتجزیۀ نامنفی ماتریسی: روشی برای تحلیل داده های نامنفی
اخیراً روش جدیدی با نام تجزیۀ نامنفی ماتریسی برای نمایش خطی داده های نامنفی پیشنهاد شده است که علاوه بر کاهش تعداد داده ها، محدودیت روش های کلاسیک را ندارد. در این روش، ماتریس بزرگِ متناظر با داده های نامنفی به دو ماتریس نامنفی کوچک تجزیه می شود. در این مقاله، ابتدا روش های کلاسیک را مرور می کنیم. سپس تجزیۀ نامنفی ماتریسی با نسخه های مختلف آن معرفی و مسائل مهم داده کاوی مانند رده بندی و خوشه بند...
full textMy Resources
Save resource for easier access later
Journal title:
بین المللی مهندسی صنایع و مدیریت تولیدجلد ۱۹، شماره ۷، صفحات ۶۵-۷۴
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023